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面向 “为 学 习 而 测评 ”的 纵向 认 知 诊断 模型 1 


AmA WEN FIA 
(浙江 师范 大 学 教师 教育 学 院 ) 


摘 要 基于 “为 学 习 而 测评 ”的 理念 ， 以 促进 学 生 学 习 为 目的 ， 客 观 量化 学 习 现状 并 提供 诊断 反馈 
的 测评 模式 日 益 受 到 重视 。 相 比 于 横断 认识 诊断 测评 ， 纵 向 认 知 诊断 测评 更 有 利于 实现 促进 学 生发 展 
的 目标 。 为 使 国内 学 者 系统 性 地 了 解 纵向 认 知 诊断 模型 ， 首 先 ， 依 据 建 模 逻 辑 将 已 有 纵向 认 知 诊断 模 
型 划分 为 基于 潜在 转换 分 析 的 和 基于 高 阶 潜在 结构 模型 的 两 类 ; 然后， 逐一 介绍 和 说 明 两 类 模型 的 理 
论 基础 和 应 用 情景 最后， 提炼 出 四 个 可 进一步 研究 的 议题 。 


关键 词 认 知 诊断 ; 追踪 研究 ; 潜在 转换 分 析 ; 潜在 类 别 分 析 ; 纵向 认 知 诊断 模型 


《教育 部 关于 推进 中 小 学 教育 质量 综合 评价 改革 的 意见 》( 简 称 为 《评价 改革 的 意见 》) 指 出 当前 中 
小 学 教育 质量 评价 仍然 “在 评价 内 容 上 重 考 试 分 数 忽视 学 生 综合 素质 和 个 性 发 展 ， 在 评价 方式 上 重 最 
终结 果 忽 视 学 校 进步 和 努力 程度 ， 在 评价 结果 使 用 上 重 甄别 证 明 忽 视 诊断 和 改进 。 这 些 问 题 严重 影响 
了 学 生 的 全 面 发 展 、 健 康成 长 ， 制 约 了 学 生 社会 责任 感 、 创 新 精神 和 实践 能 力 的 培养 。” 教 育 的 主要 
目的 之 一 是 促进 学 生 的 发 展 。 良 好 的 教育 应 遵循 学 生成 长 规律 ， 应 能 够 针对 有 个 性 差异 的 学 生 进行 因 
材 施 教 ， 发 展 每 一 个 学 生 的 优势 潜能 ， 进 而 促进 学 生 主动 获取 和 理解 未 知 的 知识 内 容 。 而 “因材施教 ” 
的 基本 前 提 是 要 对 学 生 现 有 的 学 习 状 况 (e.g.， 知 识 掌握 情况 和 学 习 动机 ) 及 其 在 不 同时 间 点 上 的 发 展 ( 变 
化 ) 情 况 (e.g.， 知 识 掌握 程度 是 否 增加 ? 学 习 动 机 是 否 增强 ? ) 有 一 个 相对 客观 和 准确 的 了 解 。 因 此 ， 如 
何 实现 对 学 生 现 有 的 学 习 状 况 及 其 发 展 趋势 进行 客观 且 准 确 地 测评 是 一 个 需要 被 关注 的 重要 议题 。 
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“有 意义 接受 学 习 ” 理 论 (Ausubel, Novak, & Hanesian, 1968) 强 调 已 掌握 知识 对 学 习 的 重要 性 ， 认 
为 有 意义 学 习 是 学 生 将 新 知识 纳入 已 有 知识 结构 的 过 程 。 因 此 ， 客 观 量化 学 生 的 学 习 现状 对 促进 学 习 
有 具有 重要 作用 。 近 些 年 ， 基 于 “为 学 习 而 测评 (assessment for learning)” 理 念 (Wiliam, 2011)， 以 促进 学 


生 学 习 为 目的 ， 客 观 量化 学 习 现 状 并 提供 诊断 反馈 报告 的 测评 模式 日 益 受到 重视 。 在 众多 测评 方法 中 ， 
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认 知 诊断 测评 (cognitive diagnostic assessment, CDA) 在 近 些 年 里 得 到 了 国内 外 学 者 的 广泛 关注 。CDA 是 
指 在 心理 与 教育 测量 学 中 对 个 体 认 知 过 程 、 加 工 技能 或 知识 结构 (统称 为 属性 ) 的 诊断 测评 (Yang & 
Embretson, 2007)。 作 为 一 种 将 终结 性 评价 和 形成 性 评价 相 结合 的 综合 评价 形式 ( 集 沛 达 ， 陈 平 ， 边 玉 芳 ， 
2016), CDA 的 初衷 是 通过 测评 学 生 对 属性 的 掌握 状态 为 教师 或 干预 者 提供 诊断 反馈 报告 ， 进 而 帮助 他 
们 实施 补救 教学 或 有 针对 性 的 干预 (Zhan, Jiao, & Liao, 2018), 其 最 终 目的 是 为 了 更 有 效 地 促进 学 生 的 发 
展 。 因 此 ，CDA 符合 当前 我 国 一 些 教育 政策 导向 ， 比 如 ，《 评 价 改 革 的 意见 》 中 “将 形成 性 评价 与 终 
结 性 评价 相 结 合 ， 注 重 考 查 学 生 进步 的 程度 和 学 校 的 努力 程度 ， 改 变 单纯 强调 结果 不 关注 发 展 变化 的 
做 法 ”; 《基础 教育 课程 改革 纲要 (试行 )》 中 “改变 课程 评价 过 分 强调 甄别 与 选拔 的 功能 ， 发 挥 评价 促 
进 学 生发 展 、 教 师 提 高 和 改进 教学 实践 的 功能 ”的 具体 目标 。 总 之 ，CDA 不 仅 有 助 于 客观 且 准确 地 测 
评 学 生 当前 的 认 知 过 程 和 知识 结构 ， 还 能 进一步 提供 诊断 反馈 报告 和 补救 教学 建议 ， 为 促进 学 生发 展 
葛 定 了 理论 基础 。 
“为 学 习 而 测评 ”理念 强调 反馈 对 促进 学 习 的 重要 性 , 为 判断 CDA 中 诊断 反馈 与 补救 教学 的 成 效 ， 

需 依 赖 于 沿 学 生成 长 轨迹 收集 的 跨 时 间 点 的 测评 数据 (ie.， 纵 向 数据 或 追踪 数据 )。 作 为 CDA 的 核心 技 
术 环 节 ， 认 知 诊断 模型 (cognitive diagnosis model, CDM) 与 测验 情景 的 匹配 性 或 与 数据 的 拟 合 性 直接 决 
定 这 测评 结果 的 准确 性 和 有 效 性 。 由 于 当前 绝 大 多 数 CDA 并 未 关注 学 生 的 发 展 问题 而 采用 了 横断 测验 
设计 ,所 以 对 于 CDM 的 研究 与 应 用 也 主要 集中 在 对 横断 数据 的 分 析 。 尽 管 已 有 个 别 研究 尝试 使 用 前 后 
测 设计 ?来 测评 学 生 的 发 展 情况 (e.g., Wu, 2018)， 但 仍 使 用 了 针对 横断 数据 的 传统 CDM (简称 为 “横断 
CDM”)， 即 前 测 与 后 测 分 别 使 用 相同 的 横断 CDM 进行 数据 分 析 。 重 复 使 用 横断 CDM 分 析 纵 向 CDA 
O 数据 的 主要 缺点 是 没有 随时 间 的 推移 对 模型 参数 进行 同时 校准 ， 无 法 保证 参数 估计 值 在 一 个 量 尺 上 。 
鉴于 横断 CDA 无 法 完全 实现 CDA 的 初衷 及 最 终 目 标 , 纵向 CDA 逐渐 受到 研究 者 和 实践 者 的 关注 。 同 

时 ， 如 何 更 合理 地 分 析 纵向 CDA 数据 (ie., 开发 纵向 CDM) 已 成 为 当前 心理 计量 学 的 前 沿 议题 。 


近 两 年 ， 在 国际 上 ， 研 究 者 们 已 经 提出 了 一 些 不 同 的 纵向 CDM (e.g., Chen, Culpepper, Wang, & 
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Douglas, 2018; Hansen, 2013; Huang, 2017; Kaya & Leita, 2017; Li, Cohen, Bottge, & Templin, 2016; Studer, 


2012; Wang, Yang, Culpepper, & Douglas, 2018; Wang, Zhang, Douglas, & Culpepper, 2018; Zhan, Jiao, Liao, 


& Li, 2019; Zhang & Wang, 2018); 而 国内 关于 纵向 CDM 的 研究 尚 为 空白 ， 仅 有 一 篇 文章 简单 介绍 了 


Li et al. (2016) 及 Kaya 和 Leita (2017) 的 研究 ( 张 颖 , 边 玉 芳 , 2017)， 尚 不 足以 使 国内 学 者 对 纵向 CDM 的 


2 前 后 测 设计 等 同 于 仅 包含 两 个 时 间 点 的 纵向 设计 . 
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发 展现 状 和 趋势 有 一 个 系统 、 全 面 的 了 解 。 对 此 , 本文 拟 对 已 有 的 纵向 CDM 进行 系统 性 地 介绍 并 总 结 
其 发 展 趋势 ， 以 期 国内 学 者 更 全 面 地 了 解 纵向 CDM 的 理论 基础 和 应 用 情景 ， 为 纵向 CDA 数据 分 析 提 


供 理论 参考 。 


2. 纵向 认 知 诊断 模型 
经 过 梳理 ， 大 体 可 将 已 有 的 纵向 CDM 依据 建 模 逻辑 分 为 两 大 类 : (1) 基 于 潜在 转换 分 析 (latent 


transition analysis, LTA; Collins & Wugalter, 1992) 的 纵向 CDM, 4% Chen et al. (2018)、Kaya & Leita 


(2017). Li etal. (2016), Wang, Yang et al. (2018). Wang, Zhang et al. (2018) 和 Zhang & Wang (2018) fit 


提出 的 模型 ，(2) 基 于 高 阶 潜在 结构 模型 (higher-order latent structural model; de la Torre & Douglas, 2004) 


的 纵向 CDM, 包括 Hansen (2013), Huang (2017) 和 Zhan et al. (2019) 所 提出 的 模型 。 另 外 ， 鉴 于 Studer 
(2012) 和 Hansen (2013) 所 提出 的 纵向 CDM 仅 适 用 于 每 个 测验 时 间 点 测量 1 个 属性 的 纵向 CDA ， 不 符 


A CDA 对 多 维 属性 进行 测评 的 需求 ， 本 文 不 再 介绍 。 同 时 ， 为 避免 费 述 ， 本 文 也 不 再 介绍 经 典 的 横断 


pi 


CDM, 比如 DINA 模型 Junker & Sijstima, 2001), DINO 模型 (Templin & Henson, 2006) 和 GDINA 模型 (de 
la Torre, 2011) 等 ， 感 兴趣 的 读者 可 参阅 Rupp. Templin 和 Henson (2010). von Davier 和 Lee (in press) 
及 涂 冬 波 , Bi, Tt (2012). 

2.1. 基于 LTA 的 纵向 CDM 


在 CDA 中 ， 由 于 潜在 属性 为 类 别 变量 ， 因 此 ， 在 项 目 反 应 理论 (item response theory, IRT) 框 架 下 常 


用 的 (适用 于 连续 潜在 变量 ) 纵 向 建 模 方 法 (e.g., Andersen, 1985; Embretson, 1991; von Davier, Xu, &, 


Carstensen, 2011; Wang, Kohli, & Henn, 2015) 无 法 直接 套用 在 CDM 里 。 对 此 ，Li et al. (2016) 将 LTA( 也 


被 称 为 混合 隐 ( 潜 在 ) 马 尔 可 夫 模 型 (mixed hidden [or latent] Markov model; Van de Pol & Langeheine, 


1990)) 引 入 到 DINA 模型 中 ， 提 出 了 适用 于 重复 测验 的 LTA-DINA 模型 。 类 似 ，Kaya 和 Leita (2017) 将 
LTA 分 别 引 入 到 了 DINA 模型 和 DINO 模型 中 。 此 人 外， 与 只 关注 各 时 间 点 之 间 的 变化 情况 (e.g., 时 间 点 
t 到 时 间 点 t+ 1 的 转换 概率 是 多 少 ) 相 比 , 也 有 研究 者 对 各 时 间 点 之 间 的 具体 变化 原因 (e.g., 什么 因素 导 


致 了 时 间 点 上 到 时 间 点 t+1 之 间 的 变化 ) 更 感 兴趣 (e.g., Wang, Yang et al., 2017). 


2.1.1. LIA-CDM 


为 使 读者 更 易于 理解 LIA-CDM 的 建 模 逻辑 , 本文 先 对 LIA 进行 介绍 ,LTA 作为 潜在 类 别 分 析 (latent 


class analysis, LCA) 在 重复 测量 (repeated measures) 中 的 拓展 , 常 被 用 于 描述 动态 潜在 变量 (dynamic latent 
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variables; Collins & Wugalter, 1992) 的 在 贯 序 阶段 中 的 变化 ， 比 如 随时 间 变 化 的 态度 、 人 格 和 能 


假设 测验 共 包 含 了 个 时 间 点 ， 作 为 对 LCA 的 拓展 ，LTA 的 一 般 形式 可 表示 为 


C C 
Par =P(Y,7)= 2 Pe PO, |c7)= Pike. ? (1) 


cr=l Cr=l 


式 中 ,pnr 表 示 到 时 间 点 7 时 (i.e., Zt T-1 次 转换 ) 被 试 n BHT x THA ES RIS yor = (Yni, 


Yni, nl nD ymr s Yny 的 联合 概率 ; n ,= P(c,) 为 到 时 间 点 了 时 的 混合 比例 (mixing 


C. 


proportion)， 用 于 描述 到 时 间 点 了 时 每 个 类 别 中 所 包含 人 数 占 总 人 数 的 比例 ，C 为 总 类 别 数量 (假设 所 


时 间 点 上 类 别 总 数 一 致 , 因此 SO): Pire = PCY gr | Cp) 表示 到 时 间 点 工时 归 入 第 cr 类 别 的 被 试 7 
ler 


呈现 7x 了 道 题目 的 作答 结果 向 量 yw 的 联合 概率 ， 可 进一步 表示 为 


T I 
Patter = PUY ar | cr) = JIII Prie, (1 = Prite, ) > (2) 


t=] i=l 


式 中 Dain, 为 测量 模型 measurement model)， 表 示 在 时 间 点 t(¢< DD) 归 入 第 e RAN BAK n 答对 题目 i 的 


es 


WR, EBER ym E Yoro 通常 ，LTA 假设 测量 模型 


具有 参数 不 变性 ， 即 在 任 一 时 间 点 归 入 相同 类 别 


的 被 试 作答 相同 题目 的 正确 概率 不 变 (实际 上 是 假设 题目 参数 跨 时 间 点 不 变 )， 因 此 pi = Pnie, ° 


需要 注意 的 是 ， 在 LTA 中， 时 间 点 t+1 的 混合 比例 是 根据 时 间 点 t 的 混合 比例 以 及 从 1 到 1+1 的 
转换 概率 (transition probabilities) 计 算出 来 的 。 因 此 ， 在 LTA 中 仅 需 估计 第 一 时 间 点 的 混合 比例 和 不 同 
时 间 点 之 间 的 转换 概率 即 可 计算 出 第 二 时 间 点 及 之 后 时 间 点 上 的 混合 比例 ?， 即 


C 
TY E » Me Teale ? (3) 
c+=1 
RP, To p DARAWA EAL BORER c 类 别 转换 为 第 cr 类 别 的 概率 。 根 据 类 别 总 数 A 


间 点 1 到 t+ 1 有 CxC 的 转换 概率 矩阵 


U 


”这 是 LTA 5 LCA 的 主要 区 别 。 当 数据 分 析 者 不 关心 被 试 从 第 1 时 间 点 到 第 t+ 1 时 间 点 的 依次 变化 情况 时 ， 则 可 以 使 
H LCA 直接 估计 邢 。 . 
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t+l 山 t+ ll, 


Tild, Voile en 
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VG Talc, Ea Teal 


其 中 行为 时 间 点 上 的 类 别 ， 列 为 时 间 点 t+ 1 的 类 别 。 对 于 每 一 位 被 试 ， 从 时 间 点 上 中 的 某 一 类 别 能 且 


仅 能 转换 到 时 间 点 !+ 1 中 的 1 个 类 别 ， 因 此 ， 式 (9) 中 每 行 之 和 均 为 te，》> 


T 
C =l Crale, 


=1). #m, 


整个 测验 经 过 了- 1 次 转换 ， 待 估计 的 转换 概率 数量 为 (7- 1)C(C - 1). 
将 式 (3) 依 时 间 点 依次 带 入 式 (1)， 则 有 
G C 


C T -T 
= Yni 1-Yni 
Par Se Par Tree [I [pz (l= Pnie) E (5) 


cr=l C2 =] cl =] t=] i=l 


在 LTA 基础 上 ， 我 们 仅 需 要 把 测量 模型 设 定 为 CDM 即 可 得 到 LTA-DINA 和 LTA-DINO 模型 。 对 


于 LTA-DINA 模型 ， 有 


K 
P nilc, T &i +(l-s; — Zi Mni, = Si 十 (一 8 -gp)| [o > (6) 
k=l 


式 中 ，s; 为 题目 i 的 失误 参数 ，g; 为 题目 i 的 猜测 参数 ，gqiw 为 时 间 点 + 上 Q, 和 矩阵 中 元 素 ，qgw = 1 表示 时 


间 点 + 上 题目 i 考查 属性 k,， gin= 0 反之; K 为 属性 数量 。 需要 强调 的 是 ， 由 于 LTA-DINA 和 LIA-DINO 


模型 仅 适用 于 重复 测验 ， 所 以 在 不 同时 间 点 上 的 Q 矩阵 完全 相同 ， 进 而 giw = qe Ti MITA co 


别 的 被 试 n 在 题目 i 上 的 理想 作答 概率 ; a 


= (Qpe, o Une, ) 为 轨 入 第 ci: 类别 的 被 试 4 的 属性 向 量 。 


nc, 


类 似 ， 对 于 LTA-DINO 模型 ， 则 有 


K 
P nile, = 8; 十 a S; — 8; )d [I a One, en ) $ (7) 
k=1 


x 


需要 强调 的 是 , Li et al. (2016) 与 Kaya 和 Leita (2017) 所 提出 模型 并 不 完全 相同 , 它们 之 间 的 主要 区 
别 在 于 对 转换 概率 的 建 模 和 估计 方法 。 对 于 LTA-CDM 而 言 ， 式 (4) 中 的 转换 概率 实际 上 是 属性 向 量 (类 
别 ) 水 平 转换 概率 。Kaya 和 Leita (2017) 直 接 估计 了 各 时 间 点 上 属性 向 量 水 平 转换 概率 ， 则 其 待 估计 参 
数 数量 为 (T 一 1)C(C 一 1)， 而 Li et al. (2016) 是 将 属性 向 量 水 平 转换 概率 拆 分 为 属性 水 平 转换 概率 ， 此 时 
需 假设 各 属性 之 间 的 转换 概率 相互 独立 ， 则 其 待 估计 参数 数量 为 (7- D2K。 比 如 ， 某 测验 仅 包含 2 个 
时 间 点 并 考查 2 个 属性 ， 则 从 时 间 点 1 到 时 间 点 2 针对 (00) 一 (10) 这 一 转换 ， 属 性 向 量 水 平 转换 概率 描 
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述 的 是 (00) 一 (10) 的 概率 ， 即 raoloo; 而 相应 的 属性 水 平 转换 概率 描述 的 是 0 一 1 和 0 一 0 的 联合 概率 ， 
即 rilo x rolo。 由 于 C=2*， 所 以 属性 水 平 转换 概率 的 待 估 计 参 数 数量 少 于 属性 向 量 水 平 转换 概率 的 待 
估 参 数 数量 。 
2.1.2. 一 阶 隐 马尔 可 夫 模 型 

与 Kaya 和 Leita (2017) 的 研究 类 似 ，Chen et al. (2018) 也 提出 了 关注 属性 向 量 水 平 转换 概率 的 一 阶 


隐 马 尔 可 夫 模 型 (first-order hidden Markov model, FOHM)。 首 先 ，Chen et al. (2018) 区 分 了 两 种 属性 向 量 


水 平 的 学 习 轨 迹 : 无 约束 的 (anrestricted) 和 不 减少 的 aondecreasing)。 前 者 允许 被 试 遗忘 已 掌握 的 属性 ， 
而 后 者 假设 被 试 一 旦 掌握 某 属 性 就 不 会 出 现 遗 忘 。 显 然 ， 不 减少 学 习 轨迹 所 需 估计 的 属性 向 量 水 平 转 
换 概率 数量 远 小 于 无 约束 学 习 轨 迹 的 。 然 后 ， 为 进一步 减少 参数 估计 数量 ，Chen et al. (2018) 又 假设 属 
性 向 量 水 平 转换 概率 具有 跨 时 间 点 不 变性 。 因 此 ，FOHM 本 质 上 是 对 Kaya 和 Leita (2017) 所 提出 模型 


i 


的 简化 。 实 际 上 ，Chen et al. (2018) 在 FOHM 的 基础 上 还 提出 了 一 个 高 阶 FOHM 模型 ， 即 对 FOHM 引 


入 一 个 一 般 (高 阶 ) 学 习 能 力 。 但 本 质 上 讲 ， 高 阶 FOHM 仅 是 下 文 将 要 介绍 的 引入 协 变量 的 高 阶 隐 马尔 


可 夫 模 型 (higher-order, hidden Markov model, HO-HMM; Wang, Yang et al., 2018) 的 一 个 特例 。 
2.1.3. 引入 协 变 量 的 高 阶 隐 马 尔 可 夫 模 型 

与 上 述 3 个 纵向 CDM 不 同 , 引入 协 变 量 的 高 阶 隐 马 尔 可 夫 模 型 (HO-HMM) 更 关注 的 是 什么 原因 导 
致 了 被 试 对 属性 的 掌握 状态 从 时 间 点 1 到 时 间 点 1+1 之 间 的 变化 ， 因 此 ， 不 是 简单 的 估计 转换 概率 而 
是 对 其 进行 建 模 。 与 Li et al. (2016) 类 似 , 该 模型 也 是 从 属性 水 平 转换 概率 入 手 ， 则 对 于 二 分 属性 而 言 ， 
就 存在 4 PRAET Tijo topno DIR 0 一 0、0 一 1、1 一 0 和 1 一 1 的 概率 ， 且 前 两 者 的 


和 、 后 两 者 的 和 均 为 1。 为 简化 模型 ，Wang, Yang et al. (2018) 假 设 一 旦 被 试 在 时 间 点 上 掌握 了 属性 ， 则 


在 后 续 的 时 间 点 中 就 不 会 遗 筷 。 因 此 ，rli= 1 且 toj1= 0， 进 而 只 需要 对 Tio 进行 建 模 即 可 ， 


M 
DE exp(Ao, + D A mknm) 
L+ expo + A neZ) 


Tp = P(a (8) 


n(t+1) = 1 | On = 0, Zu) 


该 式 表 示 被 试 从 时 间 点 上 的 未 掌握 到 时 间 点 t+ 1 的 掌握 的 转换 概率 由 一 系列 协 变量 (covariate) 导 致 , Zv 


= (Zn, .…, Zu) 为 被 试 半 在 时 间 上 的 协 变量 向 量 ， 包 括 诸如 一 般 学 习 能 力 、 性 别 、 社 会 经 济 地 位 、 教 育 


干预 次 数 、 己 掌握 的 属性 数量 等 ，M 为 协 变量 总 数 ，Xox 为 转换 概率 的 截 距 ， 用 于 描述 当 所 有 协 变 量 均 


O 


KOR, PRRI: Am IBEA AR ER, EE RERE TK o 


针对 几 个 常见 的 协 变量 ， 式 (8) 可 进一步 表示 为 


6 
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logit(rio) = Aor +À, + Ady 2, a (E) +>, > > dimeir ? (9) 


h=1 j=l 


式 中 ，logit(x) = log(x / (1 —x))s On ABR n 的 一 般 学 习 能 力 ， 该 模型 假设 一 般 学 习 能 力 对 所 有 属性 在 所 


9 时间 点 之 间 的 转换 概率 均 有 影响 ， 且 其 有 跨 时 间 点 不 变性 。 进 而 学 生 的 一 般 学 习 能 力 越 高 ， 则 其 从 


未 掌握 转换 到 掌握 的 概率 越 大 ; om 为 在 时 间 点 1 被 试 n 己 掌握 的 ( 除 属性 外 ) 属 性 数量 ; 


Y D duen 为 截止 到 时 间 点 :被 试 上 针对 属性 上 已 “练习 ”过 的 次 数 ， 其 中 gun 是 时 间 点 /之 前 的 


第 有 时间 点 上 Q; 和 矩阵 中 的 元 素 ，ex 是 预先 设 定好 的 “练习 ”收益 (通常 可 设 定 为 1)。 


最 后 ， 需 要 强调 的 是 ，FOHM 以 及 HO-HMM 中 假设 学 生 不 会 遗忘 已 掌握 属性 或 许 仅 适用 于 时 间 


点 间隔 较 短 的 情况 ， 而 当时 间 点 间隔 较 长 时 (e.g.， 一 周 或 一 个 月 ), 被 试 就 可 能 遗忘 掉 已 掌握 的 属性 (see， 


e.g., Zhan et al., 2019)。 因 此 ， 准 备 使 用 这 两 个 模型 时 ， 需 要 实践 应 用 者 验证 该 假设 是 否 成 立 。 


2.1.4. 引入 题目 作答 时 间 的 高 阶 隐 马尔 可 夫 CDM 
随 着 计算 机 成 本 的 降低 以 及 网 络 化 程度 的 提高 , 在 “互联 网 + 测评 ”( 张 华 华 , 汪 文 义 , 2016) 背 景 下 
对 题目 作答 时 间 (item response times, RT) 等 过 程 数据 的 收集 已 成 为 了 一 种 新 常态 。 近 两 年 ， 已 有 一 些 研 


尝试 将 RT 引入 CDM， 以 期 探究 引入 RT 对 诊断 学 生 学 习 所 带 来 的 影响 (e.g., Wang, Zhang et al., 2018; 


Zhan, Jiao, & Liao, 2018). 


针对 纵向 CDA, Wang, Zhang et al. (2018) 提 出 了 引入 题目 作答 时 间 的 高 阶 隐 马尔 可 夫 CDM。 该 模 


型 的 基本 建 模 逻辑 与 联合 认 知 诊断 建 模 框架 (joint cognitive diagnosis modeling framework; Zhan et al., 
2018) 类 似 ， 即 先 对 作答 结果 和 RT 分 别 建 模 ， 然 后 再 将 两 个 测量 模型 进行 结合 。 其 中 针对 作答 结果 的 
量 模型 就 是 式 (6)， 而 针对 RT 的 测量 模型 则 为 


= 


Wl 


logT, nit ~ N(&,; ~ v, E ỌG,; (a, Cr )， o; ) ? (10) 


式 中 ，log7w 为 在 时 间 点 上 被 试 半 作答 题目 : 耗 时 的 对 数 ， 用 于 把 正 偏 态 分 布 矫正 为 正 态 分 布 ，uv 为 被 
试 n 的 潜在 速度 ，& 为 题目 i 的 时 间 强 度 参 数 ， 用 于 描述 该 题目 对 作 管 时 间 的 基本 要 求 ，@wi; 为 题目 i 的 
区 分 度 参 数 ， 用 于 描述 logt DAUNE; GOERA n 的 属性 轨迹 (attribute trajectory), KEET N n 
的 潜在 速度 变化 情况 ， 是 一 个 组 内 效应 (within-group effect); q 用 于 量化 潜在 速度 的 变化 ， 当 @ = 0 时 ， 


式 (10) 退 化 为 对 数 正 态 RT 模型 (van der Linden, 2006)。 
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Wang, Zhang et al. (2018) 给 出 了 Gx() 的 两 种 表达 式 ， 分 别 为 


(1) Go() 被 设 定 为 示 性 函数 


1 if ayq; Z qq; 
0 otherwise 


Gni Ce) T | (11) 


BARRARA n 在 时 间 点 1 已 掌握 题目 i 所 考查 的 所 有 属性 ， 则 其 潜在 速度 将 增加 pg， 变 为 v, + p. K 
此 ， 学 生 的 作答 速度 将 会 依据 是 否 掌握 题目 所 需 的 属性 而 被 划分 为 两 组 。 
(2) Go 人) 被 设 定 为 被 试 对 属性 的 累加 “练习 ”效应 


Gly.) 108) DM + Da. (12) 


m<t h q<i 


a 


x 


Mam = My tie, Kaa > 0) ,其 中 (ew ) =P Day te, ER m 被 归 入 第 cn ZUG 


n 对 题目 有 的 理想 作答 。 则 mj,, 表示 当 题 目 h 包 含 第 i 题 所 考察 的 属性 向 量 的 子 集 时 ， 在 时 间 点 m 被 


ihn 对 题目 的 理想 作答 。 进 而 ，》， 


Mm 表示 在 时 间 点 1 之 前 的 所 有 时 间 点 上 被 试 n 作答 所 有 


m<t 


题目 的 累加 “练习 ”效应 。 类 似 地 Dita 表示 在 时 间 点 + 上 被 试 n HEAR i ZH AY A On“ 


习 ” 效 应 。 另 外 ， 之 所 以 对 累加 “练习 ”效应 求 对 数 ， 是 为 了 与 log RT 在 一 个 量 尺 上 。 
与 HO-HMM 一 致 ， 该 模型 在 各 时 间 点 之 间 的 属性 水 平 转换 概率 为 式 (9)。 另 外 ， 需 要 说 明 的 是 ， 
不 同 于 联合 认 知 诊断 建 模 框架 (Zhan et al., 2018) 中 通过 在 一 般 潜在 能 力 与 潜在 速度 之 间 建立 二 元 正 态 


分 布 来 联合 CDM 和 RT 模型 ， 该 模型 是 通过 中 Cu (0 ) 把 属性 直接 引入 RT 模型 来 进行 联合 建 模 的 。 


因此 ， 当 9 = 0 时， 两 个 测量 模型 相互 独立 。 


后 续 ，Zhang 和 Wang (2018) 又 将 该 模型 拓 广 到 混合 建 模 (mixture modeling) 中 ， 用 于 区 分 学 生 在 不 
同时 间 点 上 的 不 同 作答 策略 (ie.， 快 速 猜 测 策略 还 是 正常 解 题 策略 )。 当 学 生 被 估计 为 正常 解 题 策略 组 ， 


则 该 模型 等 价 于 Wang, Zhang et al. (2018) 的 模型 ; 而 当 学 生 被 估计 为 快速 猜测 策略 组 ， 则 其 该 模型 假设 


被 试 对 所 有 题目 的 正确 作答 概率 均 为 g*, log RT 满足 正 态 分 布 W(hi,G1)， 且 从 时 间 点 上 到 时 间 点 t+1 


属性 向 量 保持 不 变 。 其 中 g* uo oP 是 待 估计 参数 。 


2.2. 基于 高 阶 潜在 结构 模型 的 纵向 CDM 


ChinaXiv 预 印 本 


本 质 上 看 ， 上 面 提 到 的 这 些 基 于 转换 概率 的 方法 均 是 从 潜在 类 别 建 模 (latent class modeling) 视 角 来 
分 析 纵 向 数据 ， 且 均 可 以 被 视 为 混合 隐 马 尔 可 夫 模型 (mixture hidden Markov model; Vermunt, Tran, & 


Magidson, 2008) 的 特例 或 应 用 。 与 之 不 同 , 针对 无 法 直接 在 属性 水 平 上 使 用 适用 于 连续 潜在 变量 的 纵向 


建 模 方 法 这 一 问题 ，Zhan et al. (2019) 和 Huang (2017) 利 用 了 高 阶 潜在 结构 模型 中 一 般 潜在 能 力 这 一 潜 


在 变量 的 连续 特性 分 别提 出 了 基于 多 元 正 态 分 布 策 略 (e.g., von Davier et al., 2011) 和 基于 潜在 增长 模型 
策略 (e.g., Wang et al., 2016) 的 纵向 CDM. 

2.2.1. 基于 多 元 正 态 分 布 的 纵向 高 阶 CDM 

在 实践 中 ， 教 育 测评 通常 为 高 风险 测验 ， 因 此 ， 并 不 适合 采用 重复 测验 设计 。 针 对 更 常见 的 锚 题 


设计 (anchor-item design), Zhan et al. (2019) 提 出 了 纵向 高 阶 DINA (longitudinal higher-order DINA model, 


Long-DINA)# 44. Long-DINA 模型 共 包 含 3+1 层 ， 其 中 ， 第 一 层 为 测量 模型 ， 用 于 描述 各 时 间 点 上 
属性 与 题目 作答 之 间 的 关系 ; 第 二 层 为 高 阶 潜在 结构 模型 ， 用 于 描述 各 时 间 点 上 一 般 潜在 能 力 与 属性 
之 间 的 关系 ; 第 三 层 为 纵向 发 展 层 ， 用 于 描述 不 同时 间 点 上 一 般 潜在 能 力 的 变化 情况 ， 另 外 ， 还 包含 
一 层 特殊 维度 层 ， 用 于 描述 被 试 作答 不 同时 间 点 上 锚 题 之 间 的 局 部 题目 依赖 性 (local item dependence) 


(see, e.g., Paek, Park, Cai, & Chi, 2014)， 这 种 局 部 题目 依赖 性 可 能 是 由 记忆 导致 的 。 已 有 大 量 研究 表明 


忽略 可 能 存在 的 局 部 题目 依赖 性 会 影响 参数 估计 的 精度 (e.g., Bradlow, Wainer, & Wang, 1999; Tao & 


Chao, 2016; AWA, FA, EXP, WEF, EXA, 2015). 


Long-DINA 模型 4 可 被 描述 为 : 
(1) 第 一 层 模 型 


logit(P( ni: =] | Gite, >Vam> Dior Nit) = Nios E Ai E Oni + Tim'Y nm ? (13) 


k=1 Mle; 


AP, Aio P DAAA EH i RREME; Yam ~ MO, 1) 为 被 试 n 的 第 m 个 特殊 维度 值 ， 用 


于 处 理 或 提取 锚 题 或 重复 题目 之 间 的 局 部 题目 依赖 性 ， 各 特殊 维度 之 间 相 互 独立 。 通 常 只 有 部 分 题目 


会 涉及 特殊 维度 ，rin 为 题目 i 在 第 m 个 特殊 维度 上 的 区 分 度 参数 ， 其 他 参数 同上 。 


(2) 第 二 层 模型 


logit(P(G., x. =1 | D> Sou) = 8B nr = Bis 8, = (CTS R Onr) 2 (14) 


式 中 ，0 为 时 间 点 + 上 被 试 n 的 一 般 潜在 能 力 ;，64 Mpu PAN Ti) A t ERPE k AE Aa; MA 


gaw 


4 BR DINA 模型 外 ， 该 建 模 罗 辑 亦 可 拓 广 至 其 他 采用 logit 连接 函数 的 CDM 中 。 
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一 般 潜在 能 力 独 立 于 式 (13) 中 的 特殊 维度 。 被 试 的 一 般 潜在 能 力 和 对 各 属性 的 掌握 概率 可 随时 间 发 生变 


化 。 此 外 ， 该 方法 假设 潜在 结构 存在 时 间 不 变性 ， 即 不 同时 间 点 测验 考查 相同 的 潜在 属性 ， 则 不 同时 


间 点 上 属性 的 截 距 参 数 保持 一 致 ，5n= ôr HBe = Bro 


(3) 第 三 层 模 型 


0, = (9007) ~ MVN, (p, X), (15) 
其 中 ， 均 值 向 量 p= (u, …, UN WATT EE E 
0; 
y=! : 
Oir Or 


作为 初始 点 和 对 比 点 ，Long-DINA 模型 假设 第 一 个 时 间 点 上 的 一 般 潜在 能 力 满足 标准 正 态 分 布 ， 因 此 ， 


w=0 Hol; o17 为 时 间 点 1 和 时 间 点 7 上 一 般 潜在 能 力 之 间 的 协 方差 。 


基于 Long-DINA 模型 可 以 计算 出 学 生 总 体 及 个 体 的 变化 情况 。 对 于 一 般 潜在 能 力 ， 总 体 均 值 变 化 


为 让 ,一 让 ， 总 体 量 尺 变化 为 6,， 16,， 个 体 的 变化 为 6 一 6 。 对 于 属性 而 言 ， 每 个 时 间 点 的 混合 


比例 变化 情况 以 及 个 体 属 性 向 量 的 变化 也 均 可 以 报告 。 另 外 ， 需 要 强调 的 是 ，Long-DINA 模型 假设 了 


潜在 结构 的 跨 时 间 点 不 变性 ， 即 只 有 不 同时 间 点 上 所 测评 的 属性 是 相同 的 时 候 ， 各 时 间 点 上 的 一 般 潜 


在 能 力 才 具 有 相同 的 含义 。 


2.2.2. 基于 潜在 增长 模型 的 多 水 平 CDM 

与 Long-DINA 模型 的 建 模 罗 辑 类 似 ，Huang (2017) 基 于 潜在 增长 模型 提出 了 一 种 可 测量 属性 变化 
的 多 水 平 CDM。 该 模型 的 第 一 水 平 模型 与 Long-DINA 模型 的 第 一 层 和 第 二 层 模 型 保持 一 致 ， 不 同 的 
是 该 模型 的 第 二 水 平 模型 (i.e., Long-DINA 模型 中 的 第 三 层 模型 ) 上 使 用 了 潜在 增长 模型 而 非 多 元 正 态 


分 布 ， 因 此 ， 有 


0,, = Nn +n2(t—D)+e,, (16) 
AP, Nin 和 mz 分 别 为 被 试 n 的 截 距 和 载荷 ， 也 被 称 为 成 长 因子 (growth factors)， 均 为 随机 效应 (random 
effect): em 为 被 试 n 在 时 间 点 + 上 的 回归 残 差 ， 假 设 满足 均值 为 0 的 正 态 分 布 ，N(0,62,)， 且 与 其 他 


aff 


~ 
2 
n mm 


AIV: 


¢ 


chi 
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8 相互 独立 。 进 一 步 ， 为 了 引入 学 生 背 景 信息 等 协 变量 5，mw 和 mz 可 进一步 被 设 定 为 


M 
Nin = Vio + > Vike F Sin ? (17) 
m=1 
M 
Non = V20 F S Von Kyn ig Gan > (18) 
m=] 


式 中 ， Vi = (Vios Vises Vim)" 和 Vv, = (Vio. Vape Vou) 为 在 第 三 水 平 上 对 mv 和 m2 的 进一步 解释 ; Cin 


和 6， 为 回归 残 差 ， 并 假设 两 者 满足 均值 向 量 为 0 的 二 元 正 态 分 布 ，K, 为 协 变量 向 量 。 


与 HO-HMM( 式 (8)) 类 似 ， 该 模型 的 主要 优点 是 对 纵向 CDM 引入 了 协 变量 ， 试 图 解释 导致 学 生成 
长 的 具体 原因 。 但 需要 说 明 的 是 ， 与 Zhan et al. (2019) 认 为 基于 高 阶 潜在 结构 模型 的 纵向 CDM 应 满足 
潜在 结构 的 跨 时 间 点 不 变性 (i.e., 不 同时 间 点 所 测量 的 属性 不 变 ) 不 同 ，Huang (2017) 认 为 潜在 结构 可 以 
随时 间 发 生 改 变 , 并 通过 模拟 研究 探究 了 多 水 平 CDM 在 后 续 时 间 点 增加 所 测 属性 数量 时 的 表现 。 实际 
上 ， 当 不 同时 间 点 测量 不 同属 性 时 ， 尽管 在 符号 上 都 可 以 用 “0” 来 表示 不 同时 间 点 上 的 一 般 潜在 能 
但 它们 的 含义 已 经 发 生变 化 。 用 两 个 不 同 含义 参数 之 间 的 差 值 ， 无 法 解释 学 生 的 发 展 或 变化 ， 也 无 法 
用 于 判断 补救 教学 的 效果 。 比 如 ， 我 们 不 能 说 因为 学 生 在 第 二 次 施 测 后 的 四 则 运算 能 力 估 计 值 要 高 于 
他 在 第 一 次 施 测 后 的 分 数 运算 能 力 估计 值 , 所 以 学 生 ( 的 分 数 运 算 能 力 ) 发 展 了 且 两 次 测验 之 间 的 补救 教 


=b 


测评 观念 的 变化 引发 了 测评 范式 的 改变 ， 人 们 希望 通过 CDA 来 了 解 学 生 在 多 维度 、 细 粒度 的 属性 
上 的 差异 ， 进 而 有 针对 性 地 实施 补救 教学 。 近 些 年 ， 基 于 “为 学 习 而 测评 ”的 理念 ， 为 学 生 提 供 排 名 
或 分 数 的 旧 测 评 观念 逐渐 转向 为 有 效 促进 学 生 学 习 提供 诊断 信息 的 新 测评 观念 。 然 而 ， 因 横断 CDA 无 
法 对 诊断 反馈 及 补救 教学 的 成 效 进行 判断 ， 在 面 对 促 进 学 生发 展 这 一 诉求 时 就 显得 “ 虎 头 蛇 尾 ”、“ 有 
始 无 终 ”。 对 此 ， 纵 向 CDA 成 为 了 人 们 关注 的 焦点 。 为 更 客观 合理 地 分 析 纵 向 CDA 数据 ， 近 两 年 在 
国际 上 ， 研 究 者 们 提出 了 多 个 不 同 的 纵向 CDM。 人 然而， 在 国内 对 纵向 CDA 和 纵向 CDM 的 研究 均 显 
滞后 。 对 此 ， 本 文 对 已 有 的 纵向 CDM 进行 了 较为 系统 性 的 介绍 ,包括 基于 LTA 的 纵向 CDM 和 基于 


a 


= 


iii 


5 与 式 (8) 中 的 协 变量 不 同 ，Huang (2017) 模 型 中 关注 的 是 与 时 间 点 无 关 的 协 变量 ， 比 如 性 别 。 
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阶 洪 在 结构 模型 的 纵向 CDM 两 类 。 

基于 现 有 文献 ， 我 们 认为 有 关 纵 向 CDA 或 纵向 CDM 仍 有 一 些 需 要 进一步 深入 探究 的 地 方 ， 值 得 
国内 相关 学 者 们 的 关注 ， 比 如 : 

(1) 目前 尚 缺乏 对 不 同 纵向 CDM 的 对 比 研究 , 为 实践 应 用 者 选用 合适 的 模型 带 来 一 定 困难 。 本 文 
将 现 有 的 纵向 CDM 划分 为 了 两 类 , 从 模型 建构 视角 看 , 基于 高 阶 潜在 结构 模型 的 纵向 CDM 比 基 于 LTA 
的 纵向 CDM 更 易于 理解 。 但 两 类 模型 的 实际 应 用 效果 或 心理 计量 学 性 能 还 有 待 做 出 进一步 对 比 ; 

(2) 近 些 年 ， 随 着 计算 机 化 测评 的 普及 和 虚拟 测评 (virtual assessment; Agard & von Davier, 2018) 的 
出 现 , 对 可 反映 学 生 解 题 历程 的 过 程 数 据 (process data) 的 分 析 方法 研究 逐渐 成 为 了 心理 计量 学 的 前 沿 ; 
题 。 在 纵向 CDM 中 ， 目 前 仅 有 Wang, Zhang et al. (2018) 利 用 了 题目 作答 时 间 这 一 过 程 数 据 。 如 何 将 题 
目 作 答 时 间或 其 他 类 型 过 程 数据 引入 纵向 CDM 中 也 是 非常 值得 探讨 的 议题 

3) 目前 已 有 的 纵向 CDM 均 只 关注 到 二 分 属性 (binary attributes) 。 从 理论 上 讲 ， 多 分 属性 


| 


(polytomous attributes; see, e.g., Chen & de la Torre, 2013) 或 概率 态 属性 (probabilistic attributes; see, e.g., 
Zhan, Wang, Jiao, & Bian, 2018) 比 二 分 属性 更 为 精细 ， 更 适 于 描述 学 生 的 成 长 或 变化 情况 。 如 何 将 现 有 
的 纵向 CDM 拓 广 至 多 分 属性 情景 也 值得 后 续 研 究 关 注 ; 

(4) 目前 已 有 的 纵向 CDM 均 未 探讨 如 何 处 理 属 性 层级 (attribute hierarchy; Leighton, Gierl, & Hunka, 
2004)。 从 理论 上 讲 ， 基 于 LTA 的 纵向 CDM 能 够 较为 容易 地 处 理 该 问题 ， 即 仅 需 在 转换 概率 矩阵 中 删 
除 不 满足 属性 层级 的 属性 向 量 即 可 ;而 基于 高 阶 潜在 结构 模型 的 纵向 CDM 却 较 难以 处 理 该 问题 (see， 


al 


= e.g., Zhan, Ma, Jiao, & Ding, 2019)， 因 此 ， 如 何在 这 类 纵向 CDM 中 处 理 属 性 层级 是 值得 做 进一步 探讨 
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Assessment for learning oriented longitudinal cognitive diagnosis models 
ZHAN Peida PAN Yanfang LI Feiming 


(College of Teacher Education, Zhejiang Normal University, Jinhua, China, 321004) 


Abstract 
Based on the idea of “assessment for learning" and aiming at promoting students' learning, the assessment 
pattern of objectively quantifying the learning status and providing diagnostic feedback has been increasingly 
valued. Compared with the cross-sectional cognitive diagnostic assessment, the longitudinal cognitive 
diagnostic assessment is more conducive to achieving the goal of promoting students' development. In order to 
make domestic scholars systematically understanding of the longitudinal cognitive diagnosis model (CDM), 
we first divided the existing longitudinal CDM into two types according to the modeling logic: one is based on 


the latent transition analysis and another one is based on the higher-order latent structural model. Then, the 
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theoretical basis and application scenarios of each model are introduced and explained one by one. Finally, 
four future research topics are concluded. 
Key words: cognitive diagnosis; longitudinal study; latent transition analysis; latent class analysis; longitudinal 


cognitive diagnosis model 


